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1. INTRODUCCION 

El correo electrónico es quizás la aplicación 
que más tráfico genera en la Internet. Es uti- 
lizado por millones de personas para comuni- 
carse alrededor del mundo y es una aplicación 
de misión crítica para muchos negocios. En la 
última década la avalancha de correo no desea- 
do (Spam) ha sido el mayor problema para los 
usuarios del correo electrónico, ya que diaria- 
mente una cantidad arrolladora de spam entra 
en las bandejas de los usuarios. En 2004, se es- 
timó que el 62 % de todos los correos que se 
generaron fueron spam 0. El spam no solo es 
frustrante para muchos usuarios, sino que tam- 
bién compromete a la infraestructura tecnológi- 
ca de las empresas, costando dinero a causa 
de la pérdida de productividad. En los últimos 
años, el spam ha evolucionado desde ser una 
molestia a ser un serio riesgo en la seguridad, 
llegando a ser el principal medio para el robo 
de información personal, así como también pa- 
ra la proliferación de software malicioso. 

Muchas alternativas se han propuesto para 
solucionar el problema, desde protocolos de au- 
tenticación del remitente a, incluso, cobrarles 
dinero a los remitentes líTOl . Otra alternativa 
prometedora es el uso de filtros basados en con- 
tenido capaces de discriminar automáticamen- 
te entre mensajes spam y mensajes legítimos. 
Los métodos de Aprendizaje Automatizado son 
atractivos para realizar esta tarea ya que son 
capaces de adaptarse a las características evo- 
lutivas del spam, contándose además con dis- 



ponibilidad de datos para entrenar tales mode- 
los. Sin embargo, uno de los aspectos más frus- 
trantes del spam es que cambia continuamente 
para adaptarse a las nuevas técnicas que inten- 
tan detenerlo. Cada vez que se lo ataca de al- 
guna manera, los generadores de spam encuen- 
tran una manera de eludir este ataque. Esta ca- 
rrera ha llevado a una coevolución continua y 
a un aumento del nivel de sofisticación de am- 
bas partes líTOl . Otra diferencia con respecto a 
muchas tareas en la clasificación de texto con- 
siste en que el costo de un error en la clasifica- 
ción está fuertemente sesgado: etiquetar un co- 
rreo legítimo como spam, usualmente llamado 
falso positivo, trae peores consecuencias que el 
caso inverso. 

La detección de spam web puede verse co- 
mo un problema de clasificación. Para detec- 
tar páginas web spam, construimos un clasifica- 
dor para etiquetar una dada página como spam 
o como no spam. Centrándonos en el análi- 
sis del contenido semántico de los correos y 
de las páginas, se han estudiado varias técni- 
cas de clasificación de texto basadas en métodos 
de Aprendizaje Automatizado y Reconocimien- 
to de Patrones, debido principalmente a su ma- 
yor capacidad de generalización. Las técnicas 
de clasificación de texto (ver [|25l . para una re- 
visión detallada) se aplican básicamente a docu- 
mentos de texto representados en formato AS- 
CII no estructurado, en formatos estructurados 
como HTML y también se aplican a mensajes 
de correo electrónico. 

El proceso de clasificación comienza en la 



fase de entrenamiento y necesita representar el 
texto plano que contienen los documentos, por 
esto el primer paso transforma los documentos 
a alguna representación interna. Luego se cons- 
truye un vocabulario con todos los términos que 
se encontraron en los documentos, para luego 
pasar a una fase de extracción de características 
en donde, por lo general, se reduce la cardina- 
lidad de las mismas. Esto se lleva a cabo me- 
diante la eliminación de signos de puntuación 
y de palabras muy frecuentes, y por el stem- 
ming (reducción de las palabras a su palabra 
raíz o stem), con el propósito de descartar térmi- 
nos no discriminantes y de reducir el tamaño 
del vocabulario (y por lo tanto, de la comple- 
jidad computacional). Finalmente se representa 
el documento como un vector de longitud fija 
de características, en el cual cada componen- 
te (usualmente un número real) está asociado a 
un término del vocabulario. Los términos usual- 
mente corresponden a palabras individuales, o 
a frases que se encuentran en los documentos 
de entrenamiento. Las técnicas de extracción de 
características más simples están basadas en un 
método de bolsa de palabras, en donde solo se 
tienen en cuenta la ocurrencia de los términos y 
se descarta la información de su posición dentro 
del documento. Las características más comu- 
nes son la ocurrencia de la palabra (valor boo- 
leano), el número de ocurrencias (valor entero), 
o su frecuencia relativa a la longitud del docu- 
mentos (valor real). Una característica llamada 
TFIDF tiene en cuenta el número de apariciones 
en el documento y en todos los documentos de 
entrenamiento. 

Los clasificadores estadísticos pueden apli- 
carse a la representación vectorial de carac- 
terísticas. Las principales técnicas analizadas 
hasta hoy en este contexto para el filtrado de 
spam están basadas en el clasificador de tex- 
to Bayes Náíve ll2Üll y en los llamados "filtros 
Bayesianos" íl24l ÍTTTl . Dado su rendimiento en 
tareas de clasificación de texto, también se ha 
investigado el uso de clasificadores Máquina de 
Vectores de Soporte (SVM, Support Vector Ma- 
chine QI2SD). 



2. LÍNEA DE INVESTIGACIÓN 
PROPUESTA 

Como se dijo en la sección previa, la identifi- 
cación de spam puede verse como un problema 
de clasificación. Por lo tanto proponemos un al- 
goritmo que utiliza un clasificador como uno de 
sus componentes. Nuestra propuesta no inclu- 
ye el desarrollo de un clasificador en sí mismo, 
sino que plantea un ajuste en los datos de entra- 
da del conjunto de entrenamiento del clasifica- 
dor con el objetivo de mejorar su rendimiento. 
El esquema general del sistema se muestra en la 
figurad] y se describe a continuación. 

2.1. Clustering 

Dada la heterogeneidad que posee el spam, 
no puede asumirse que todo spam se asocia a 
un único tópico. Es por esto que proponemos, 
como primera etapa, la utilización de un algorit- 
mo de clustering que dividirá a los documentos 
en subtópicos más pequeños esperando con esto 
una mejora en el rendimiento global del algorit- 
mo. Una lista detallada de los algoritmos dis- 
ponibles para este propósito puede encontrarse 
en [ffl. 

2.2. Descriptores y Discriminadores 

Una vez que los datos de entrada se encuen- 
tran agrupados en subtópicos más específicos, 
tomamos cada uno de ellos y calculamos los pe- 
sos de los términos en ellos como descriptores 
y discriminadores de estos subtópicos. 

En [19] proponemos estudiar el poder des- 
criptivo y discriminante de un término en base 
a su distribución a través de los tópicos de las 
páginas recuperadas por un motor de búsqueda. 

Para distinguir entre descriptores y discri- 
minadores de tópicos argumentamos que bue- 
nos descriptores de tópicos pueden encontrar- 
se buscando aquellos términos que aparecen 
con frecuencia en documentos relacionados con 
el tópico deseado. Por otro lado, buenos discri- 
minadores de tópicos pueden hallarse buscando 
términos que aparecen solo en documentos re- 
lacionados con el tópico deseado. Ambos tipos 
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Figura 1 : Diagrama esquemático de la propuesta 



de términos son importantes a la hora de ge- 
nerar consultas. Utilizar términos descriptores 
del tópico mejora el problema de los resultados 
falso negativo porque aparecen frecuentemente 
en páginas relevantes. De la misma manera, los 
buenos discriminadores de tópicos ayudan a re- 
ducir el problema de los falsos positivos, ya que 
aparecen principalmente en páginas relevantes. 

Esta etapa da como resultado listas de térmi- 
nos con información asociada a la importancia 
de los mismos como descriptores y discrimina- 
dores. Dicha información se utilizará para ajus- 
tar la matriz de datos de entrenamiento para re- 
flejar de forma más fidedigna los pesos de los 
términos en los documentos. 

2.3. Clasificador 

Los clasificadores son implementados a par- 
tir de un conjunto de instancias o ejemplos pre- 
viamente etiquetados, en donde cada ejemplo 
tiene un vector de atributos o características. En 
general, en los conjuntos de datos que utilizare- 
mos en nuestras evaluaciones (descriptos en la 
sección[3]) las etiquetas fueron determinadas por 
personas. 

La clasificación involucra la creación de un 



modelo durante la etapa de entrenamiento que 
predecirá la etiqueta de cada instancia del con- 
junto de testeo usando los valores del vector 
de características. Para construir el clasifica- 
dor, primero lo entrenamos sobre un número 
de ejemplos del conjunto etiquetado de entrena- 
miento y determinamos los parámetros de nues- 
tro clasificador. Durante la etapa de testeo, el 
clasificador examina el vector de características 
de forma conjunta para determinar si una pági- 
na pertenece a una dada categoría o no. La eva- 
luación del clasificador se realiza en la etapa de 
testeo comparando, para cada instancia, la eti- 
queta calculada por el clasificador con la asig- 
nada a esa instancia. 

Una lista detallada de los algoritmos dispo- 
nibles para este propósito puede encontrarse 
en IÍT61 1231 . Se prevé utilizar el entorno We- 
ka IÍT31 en esta etapa. 

3. EVALUACIÓN 

Para la evaluación de nuestra propuesta uti- 
lizaremos distintos conjuntos de datos dispo- 
nibles, como por ejemplo el conjunto de da- 
tos UK-2007 del workshop internacional Air- 
Web [81, el conjunto de datos de la conferen- 



cia internacional ECML PKDD IÍT5II . el conjun- 
to de datos del track de Spam de la conferencia 
TREC [|5]| y el corpus de correos electrónicos 
SpamAssassin Gol . Para analizar la eficacia del 
método propuesto evaluaremos el rendimien- 
to del clasificador. Para ello utilizaremos las 
métricas estándares de evaluación, como pre- 
cisión, cobertura, F-score, Media Geométrica, 
área bajo la curva ROC, área bajo la curva Pre- 
cisión-Cobertura y estadísticas de Kolmogorov- 
Smirnov. 

4. CONCLUSIONES 

La técnica propuesta en este trabajo ataca uno 
de los problemas más grandes a los que se de- 
ben enfrentar los usuarios de los sistemas de in- 
formación actuales. Mejorar la representación 
de los documentos mediante el uso de vocabu- 
larios más representativos, así como el ajuste de 
los datos realizado a través de la detección de 
buenos descriptores y discriminadores ha mos- 
trado ser efectivo en otras áreas de recuperación 
de información IÍT8l[T71l . Anticipamos que apli- 
car estos métodos será ventajoso para abordar 
diversos problemas de clasificación, en particu- 
lar en el ámbito de la detección de spam. 

Nuestro trabajo está relacionado con muchos 
estudios previos sobre clasificación de páginas 
web spam basados en características. Desde los 
comienzos de la World Wide Web ha existi- 
do una necesidad de calificar a las páginas de 
acuerdo a su relevancia con una dada consulta. 
Sin embargo se ha puesto un nuevo énfasis al 
problema dadas las grandes ganancias que ge- 
nera la publicidad a través de Internet. La clasi- 
ficación de spam web es uno de los desafíos más 
importantes de los motores de búsqueda lfl4ll . 
en particular debido a la degradación de la ca- 
lidad de sus resultados. Un método prometedor 
para la identificación del spam web es la utiliza- 
ción de la información de los enlaces web que 
contienen las páginas ¡6l[D[3l[l2l|27l. Por otro 
lado recientemente se ha estudiado la clasifica- 
ción de spam web basándose en el contenido de 
la página Il22l l9ll. La detección de spam en blogs 
se estudió en I12TI . 



Todos estos ejemplos son solo los primeros 
pasos en el combate contra el spam: la naturale- 
za necesariamente adversaria de la tarea conlle- 
va a un problema que evoluciona rápidamente, 
y esta característica (de tener que buscar técni- 
cas que sean exitosas a la luz de la adaptación 
del enemigo) es algo nuevo en la comunidad de 
Aprendizaje Automatizado y trae consigo nu- 
merosos desafíos y oportunidades de investiga- 
ción. 
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